Nouvelles perspectives en extraction d'information
نویسندگان
چکیده
Les techniques dites d'extraction d'information (EI) ont connu un essor considérable ces dix dernières années. L'EI consiste à extraire de documents des informations précises et à les structurer sous une forme prédéfinie. Il s'agit en général de remplir des formulaires donnant certaines caractéristiques concernant des entités ou des événements évoqués dans les textes ainsi que des relations entre ces entités et ces événements. Le formulaire est constitué d’une liste d’attributs auxquels le système doit faire correspondre une liste de valeurs pour chaque texte analysé. Ainsi, l'EI permet de stocker dans une base de données factuelles l'information jugée pertinente en vue de traitements ultérieurs [PAZ 97] 1 . Dans le vaste éventail des traitements automatiques de documents textuels, il sera commode de situer l'EI, tant par ses objectifs que par ses méthodes, comme un niveau intermédiaire entre la recherche documentaire d’une part, et la compréhension automatique, au sens de l'intelligence artificielle (IA), de l’autre : En recherche documentaire, l’objectif général consiste à faciliter la sélection d'un sous-ensemble de documents pertinents dans une base documentaire en réponse à la requête d'un utilisateur. Le résultat du traitement est le document lui-même, sans compréhension ou interprétation de son contenu. Les traitements se réduisent généralement à une analyse du contenu lexical du texte, et éventuellement de sa « structure matérielle » (titres, résumé...), sans prise en compte de la structure syntaxique et sémantique des phrases. A l'opposé, en compréhension automatique, le but est d'obtenir une représentation du sens du texte donné. Cet objectif réclame une analyse exhaustive, syntaxique et sémantique, de chaque phrase et des relations qu'elles entretiennent, et, ce qui est tout aussi difficile, la construction d'une base de connaissances et l'élaboration d'un formalisme de représentation du sens capables de couvrir des domaines très vastes de l'expérience humaine. En EI, on produit également des représentations sémantiques externes au document. Mais on se donne la tâche de comprendre non pas le texte dans son ensemble mais des parties extrêmement ciblées quant à la structure de l’information recherchée et quant aux formes linguistiques qui la portent. L’EI apparaît ainsi comme un bon compromis, susceptible d’aboutir à la réalisation de systèmes opérationnels d’analyse de contenu de documents textuels, complémentaires de la recherche documentaire 2 . Cette « technologie » s’est notablement développée à la faveur de la série de conférences MUC (Message Understanding Conferences) qui ont permis de confronter divers systèmes d’EI sur des tâches et des corpus communs. Une large communauté scientifique s’est ainsi constituée, posant des bases méthodologiques solides et permettant une « accumulation primitive » de techniques et de systèmes logiciels. Nous pensons que ces acquis contribueront notablement à renouveler les objectifs et les méthodes de l’informatique documentaire dans son ensemble. Le présent article présente les travaux menés dans notre équipe en extraction d’information et, à partir de cette expérience, propose différentes orientations tant pour améliorer la technologie elle-même que pour en élargir les applications. Dans la section 2 nous commencerons par une présentation rapide de l’expérience des conférences MUC et nous en discuterons les acquis et limites. La section 3 sera consacrée à nos propres travaux sur une tâche du même type concernant un corpus de constats
منابع مشابه
Classification des documents en réseaux petits-mondes en vue d'apprentissage
Les systèmes de recherche d'information préconisent une fonctionnalité très intéressante voire indispensable lors de tout processus de recherche : il s'agit de la reformulation automatique de la requête. Cette fonctionnalité permet de rétablir les choix de l'utilisateur dans la perspective de retrouver plus de documents qui répondent à son besoin en information. Il est à noter à ce niveau que l...
متن کاملUne approche algébrique pour la réutilisation et l'orchestration de services dans les sysèmes d'information
RÉSUMÉ. Dans les systèmes d’information, il est aujourd’hui essentiel de mettre en œuvre rapidement et sans développements lourds de nouvelles fonctionnalités en réponse aux évolutions métiers, en réutilisant au mieux les services déjà présents. Dans le contexte de l’accès à des informations dispersées au sein d’une fédération de systèmes indépendants, nous adressons ici le problème de découver...
متن کاملDe la recherche d'information orientée système à la recherche d'information orientée contexte : Verrous, contributions et perspectives
Le résumé en anglais (≈ 1000 caractères)
متن کاملMécanisme de rétribution pour les systèmes P2P d'échange de fichiers. Comment résoudre le problème du cavalier seul
RÉSUMÉ. Les systèmes pair-à-pair d’échange de fichiers consituent un domaine d’application privilégié pour les systèmes multi-agents. Ces systèmes font émerger de nouvelles problématiques en termes de coopération. Notre objectif consiste à adapter le modèle théorique d’allocation de ressources à ce contexte applicatif pour proposer un mécanisme incitant les agents à coopérer. Le mécanisme propo...
متن کاملBig Data - Retour vers le Futur 3; De Statisticien à Data Scientist
L'évolution rapide des systèmes d'information gérant des données de plus en plus volumineuses a causé de profonds changements de paradigme dans le travail de statisticien, devenant successivement prospecteur de données, bio-informaticien et maintenant data scientist. Sans souci d'exhaustivité et après avoir illustré ces mutations successives, cet article présente brièvement les nouvelles questi...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Technique et Science Informatiques
دوره 21 شماره
صفحات -
تاریخ انتشار 2002